Dans le domaine de l'intelligence artificielle, la modélisation des séquences déplace l'attention des instantanés statiques vers flux temporels. Les tâches classiques d'apprentissage automatique supposent souvent que les points de données sont Indépendants et identiquement distribués (IID), ce qui signifie que l'ordre des échantillons n'influence pas le résultat.
La modélisation des séquences rejette explicitement cette hypothèse, en se concentrant sur trois piliers fondamentaux :
- Violation de l'invariance par permutation: Dans les données tabulaires, l'ordre des colonnes est arbitraire. Dans les séquences, l'ordre est la caractéristique principale. Échanger « Le chat a mangé la souris » par « La souris a mangé le chat » change fondamentalement le vrai sens sémantique malgré des jetons identiques.
- Auto-régressif propriétés: Nous supposons qu'une observation au temps $t$ est mathématiquement conditionnée par son historique ($t-1, t-2, \dots, 1$). Cela exige des probabilités de transition pour capturer l'évolution de l'information.
- Correspondance de longueur variable: Contrairement aux grilles fixes de 28×28 pixels, les séquences comme les phrases ou les ondes sismiques sont élastiques. Les modèles doivent traiter des entrées de longueur $N$ et produire des sorties de longueur $M$ en utilisant des paramètres cohérents.